包括视频和音频内容在内的视频会议已导致互联网流量的急剧增加,因为COVID-19大流行迫使数百万人在家中工作和学习。由于这种情况,需要进行高效且准确的视频质量工具,以监视和感知优化通过Zoom,Webex,Meet等进行了优化的远程息息流量,因此,全球视频会议的全球互联网流量已大大增加,因此,现有模型在Multi上的预测能力受到限制。 - 模式,实时流媒体介绍内容。在这里,我们通过多种方式解决了远程敏感视频质量评估(TVQA)的重大挑战。首先,我们通过收集来自不同国家 /地区的〜2k触觉视频来减轻主观标记的数据的缺乏,我们挤在了〜80k的主观质量标签上。使用此新资源,我们使用带有单独途径的多模式学习框架创建了一个在线视频质量预测框架,用于实时流媒体,以计算视觉和音频质量预测。我们的多合一模型能够在贴片,框架,剪辑和视听水平上提供准确的质量预测。我们的模型在现有质量数据库和新的TVQA数据库上都达到了最新的性能,计算费用降低,使其成为移动和嵌入式系统的有吸引力的解决方案。
translated by 谷歌翻译
视觉反事实解释用来自干扰器图像的区域代替了查询图像中的图像区域,以使系统对转换图像的决策变为干扰器类。在这项工作中,我们提出了一个新颖的框架,用于根据两个关键思想计算视觉反事实说明。首先,我们强制执行替换和替换区域包含相同的语义部分,从而产生了更加一致的解释。其次,我们以计算上有效的方式使用多个干扰器图像,并获得更少的区域替代方法的更多歧视性解释。我们的方法在语义上一致性高27%,并且比三个细粒图像识别数据集的竞争方法要快27%。我们通过机器教学实验来强调反事实对现有作品的实用性,在这些实验中,我们教人类对不同的鸟类进行分类。我们还用零件和属性的词汇来补充我们的解释,这些零件和属性对系统的决定有所帮助。在此任务中,当使用相对于现有作品的反事实解释时,我们将获得最新的结果,从而增强了语义一致的解释的重要性。源代码可从https://github.com/facebookresearch/visual-counterfactuals获得。
translated by 谷歌翻译
Learning style refers to a type of training mechanism adopted by an individual to gain new knowledge. As suggested by the VARK model, humans have different learning preferences like visual, auditory, etc., for acquiring and effectively processing information. Inspired by this concept, our work explores the idea of mixed information sharing with model compression in the context of Knowledge Distillation (KD) and Mutual Learning (ML). Unlike conventional techniques that share the same type of knowledge with all networks, we propose to train individual networks with different forms of information to enhance the learning process. We formulate a combined KD and ML framework with one teacher and two student networks that share or exchange information in the form of predictions and feature maps. Our comprehensive experiments with benchmark classification and segmentation datasets demonstrate that with 15% compression, the ensemble performance of networks trained with diverse forms of knowledge outperforms the conventional techniques both quantitatively and qualitatively.
translated by 谷歌翻译
原型网络(PN)是一个简单而有效的射击学习策略。这是一种基于公制的元学习技术,通过计算欧几里得距离到每个类的原型表示,可以执行分类。常规的PN属性对所有样品的重要性都具有相同的重要性,并通过简单地平均属于每个类的支持样品嵌入来生成原型。在这项工作中,我们提出了一种新颖的PN版本,该版本将权重归因于对应于它们对支持样本分布的影响的样品。根据样品分布的平均嵌入(包括样本和排除样品的平均嵌入)之间的最大平均差异(MMD)计算样品的影响权重。此外,在没有该样品的情况下,使用MMD根据分布的变化来测量样品的影响因子。
translated by 谷歌翻译
3D对象检测网络往往偏向于培训的数据。在不同位置,条件或传感器中捕获的数据集的评估比训练(源)数据的数据集导致模型性能下降,由于测试(或目标)数据分布的间隙。目前用于域适配的方法可以在训练期间采用访问源数据,这可能由于隐私或内存问题而无法使用,或者需要将一系列激光乐框架作为输入。我们提出了一种单一帧方法,用于提供的基于LIDAR的3D对象探测器的无源无监督域,它使用类原型来减轻逻辑标签噪声的效果。解决在存在嘈杂标签中的传统特征聚合方法对原型计算的限制,我们利用变压器模块识别对应于不正确,过于自信的注释的异常值ROI,并计算分级类原型。在迭代培训策略下,与嘈杂的伪标签相关的损失是下降的,因此在自我培训过程中精制。为了验证我们提出的方法的有效性,我们研究了与大型标签的数据集(例如Waymo Open DataSet和Nuscenes)培训的网络相关联的域移位,并在更小的标签差的数据集(如KITTI)上进行评估反之亦然。我们在最近的两个对象探测器上展示了我们的方法,实现了Out-执行其他域适应工作的结果。
translated by 谷歌翻译
原型网络(PN)是一个简单但有效的几次学习策略。它是一种基于度量的元学习技术,通过计算欧几里德距离到每个类的原型表示来执行分类。传统的PN属性对所有样本的重要性相同,并通过简单地平均属于每个类的支持样本嵌入来生成原型。在这项工作中,我们提出了一种新颖的PN版本,该PN属于权重,以支持对应于它们对支持样品分布的影响的样本。基于样品分布的平均嵌入的最大平均差异(MMD)计算样品的影响力,包括并排除样品。通过将其在三个不同的基准皮肤集数据集上与其他基线PN的性能进行比较,通过将其性能与其他基线PNS进行比较来进行我们提出的影响PN(IPNET)的综合评估。 IPNet优于所有三个数据集的引人注目的所有基线模型,以及各种N-Way,K-Shot分类任务。跨域适应实验的调查结果进一步建立了IPNET的稳健性和普遍性。
translated by 谷歌翻译
在过去十年中,已经开发出新的深度学习(DL)算法,工作负载和硬件来解决各种问题。尽管工作量和硬件生态系统的进步,DL系统的编程方法是停滞不前的。 DL工作负载从DL库中的高度优化,特定于平台和不灵活的内核,或者在新颖的操作员的情况下,通过具有强大性能的DL框架基元建立参考实现。这项工作介绍了Tensor加工基元(TPP),一个编程抽象,用于高效的DL工作负载的高效,便携式实现。 TPPS定义了一组紧凑而多才多艺的2D张镜操作员(或虚拟张量ISA),随后可以用作构建块,以在高维张量上构建复杂的运算符。 TPP规范是平台 - 不可行的,因此通过TPPS表示的代码是便携式的,而TPP实现是高度优化的,并且特定于平台。我们展示了我们使用独立内核和端到端DL&HPC工作负载完全通过TPPS表达的方法的效力和生存性,这在多个平台上优于最先进的实现。
translated by 谷歌翻译